(SRE) Site Reliability Engineer (Инженер доступности сервисов)

Москва
Полный день
IT

О компании:

  

Наш клиент – российская компания, ставшая международной, специализирующаяся на разработке своих программных продуктов в области интернет технологий. 

Компания прибыльна, активно наращивает клиентскую базу и развивается.

Российский центральный офис расположен в Москве, при этом клиенты и ресурсы компании расположены в различных городах как в  России, так и за границей. У компании есть свои центры разработки. Общая численность сотрудников – более 8000 человек.

Корпоративная культура компании дает возможность видеть быстрый результат собственного труда и поощряет инициативу и открытые коммуникации. Организация делает ставку на людей, и дает возможности для динамичного профессионального развития и карьерного роста.



Обязанности:


Наш клиент - прежде всего технологическая компания, разрабатывающая тысячи внешних и внутренних сервисов. Большинство из них работает в кластерах инфраструктурного облака, насчитывающего десятки тысяч серверов, на которых работают сотни тысяч экземпляров приложений

Команда занимается развитием облачной инфраструктуры и работает над надежностью, доступностью, масштабируемостью и производительностью сервисов нашего клиента. 

Вы будете участвовать в эксплуатации и разработке систем автоматизации управления самыми большими кластерами Компании. 

Ваша работа будет включать разработку систем мониторинга и аналитики состояния серверов. Каждый день вы будете сталкиваться со сложными, нестандартными и интересными задачами.

  • Отвечать за «здоровье» и аптайм множества сервисов;
  • Улучшать архитектуру систем управления и автоматизации работы кластера;
  • Делать инфраструктурное облако масштабируемым и высокодоступным;
  • Мониторить и автоматизировать каждую деталь большой системы

Требования:

  • Вы: имеете опыт работы с Unix-системами (Linux или FreeBSD) более трех лет;
  • понимаете, как пользовательские приложения взаимодействуют с ОС;
  • занимались построением или администрированием отказоустойчивых систем, работающих в режиме 24x7x365 и требующих минимального участия человека;
  • понимаете, как устроены сетевые протоколы и зачем нужна маршрутизация;
  • имеете опыт программирования на языках (Python, C или C++) от трех лет;
  • имеете опыт локализации проблем в больших и сложных системах.
  • В работе используются: 
  • Linux, Python, MySQL, MongoDB, Cassandra, Elliptics, Nginx, ZooKeeper, SaltStack, Porto, QEMU-KVM и множество собственных технологий, поэтому хорошо подходят люди, способные быстро разобраться в чем угодно.


Условия работы:

  • Полностью официальный доход по ТК РФ
  • Офис в шаговой доступности от садового кольца (центр Москвы)
  • Множество  "плюшек" для комфортных условий работы